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System wad Verfahren zur Verarbeitung von ^lektronischen Dokumenten 

Ein System und ein Verfahren zur Verarbeitung von elektronischen Dokumenten 
werden beschrieben, bei dehen ein Eingabedokument Dl und Referenzdaten D2 
daraufhin unfersucht werden, ob ein inhaltlicher Zusammenhang zwischen dem 
Eingabedokument D 1 und den Referenzdaten D2 besteht. Ftlr den Fall eines 
inhaltlicheri Zusammenhangs wird ein Verkntipftmgstyp entsprechend der Art des 
inhaltlichen Zusammenhangs aus einer Anzahl vorgegebener Verkntipfungstypen 
ausgewahlt und eine entsprechende Verkniipfung zwischen den Dokumenten ersteUt. 
Die Erfindung ennOglicht, dass automatisch die Art der Beziehung zvvischen zwfei 
Dokumenten erkannt wird. So lasst sich bspw. ein Strom von Dokumenten' in geeigneter 
Weise segnientieren und klassifizieren sowie sinnvoU vemetzt ablegen. 

Fig. 1 ... . 
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BESCHRRTRTINO 



System und Verfehren zur Verarbeitung von elektronischen Dokumenten 

Die Erfindung betrifft ein System und ein Verfahren zur Verarbeitung von elektroni- 
schen Dokumenten sowie ein Programm zur Durchftlhrung des Veifehrens. 

Angesichts der Viekahl von heute zur VeiiUgung stehenden Daten, die bspw. Uber 
Computemetzwerke wie d^ Internet abrufbar sind, wird verstSrkt auf Systeme und 
Verfahren zurUckgegriffen, die elektronische Dokumente entsprechend ihres Inhaltes 
automatisch verarbeiten. Bekannt sind hier bspw. Verfahren, die ein Dokument. ent- 
sprechend seinem hihalt klassifizieren. 



;von. 



15 In der ■US:A-5,983,246 sind ein Verfahren und eine Vonichtung.zur Verarbeitung - 
. Dokumenten beschrieben. In einer Netzwerk-Umgebung Werden stSndig neue Doku- 
mente bzw. neue Fassungen von Dokumenten' aufgesucht und verarbeitet, indem sie 
nach ihrem Inhalt klassifiziert werden. Die Klassifizierung erfolgt automatisch, indem 
Ahnlichkeiten zwischen den aktueU bearbeijeten und ^ereits klassifizierten Dokumenten 
20 ausgenutzt werden. Konkret wird ein.Unterscheidungswert in Form einer WorthSufig- 
keits-TabeUe betrachtet, urn ein MaB filr die Obereinstimmung der Dokumente zu 
ermitteln. 

Es ist Aufgabe der Erfindung, ein System und ein Verfahren anzugeben; mit dem.Doku- 
5 mente verarbeitet werden kSnnen und hierbei zusatzliche Informationen iih&r die Doku- 
. mente automatisch generiert werden. 

Diese Aufgabe wird gel5st durch ein System nach Anspruch 1, ein Verfehren nach An- 
spruch 1 1 und ein Programm nach Anspruch 12 zur DurchfWirung des Verfehrens. Ab- 
hangige Anspriiche beziehen sich auf yorteilhafle Ausfiihrungsformen der Erfindung. 
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ErfindungsgemaB wird mindestens ein Eingabedbkument im Hinblick auf einen inhalt- 
lichen Zusammenhang mit Referenzdaten analysiert. Bel den Referenzdaten kann es 
sich bspw. urn ein 2>veites Dokument handelh. Ebenso kann es sich bei den Referenz- 
daten urn eine Gruppe (Cluster) von Dokumenten handeln oder um eine ReprSsentation 
5 hierfiir. Auf der Basis der Analyse wird entschieden, ob ein inhaltlicher Zusammenhang 
vorliegt. Dann wird die Art dieses Zusammenhangs ermittelt und yersucht, diese einem 
Typ zuzuordnen. Hierfiir sind eine Anzahl von mogUchen Verknttpfuhgstypen, d.ii. 
Arten von inhaltlichen Beziehungen zwischen zwei Dokumenten vorgegeben. Bei" Vor- 
liegen eines entsprechenden inhaltlichen Zusammenhangs wird eine entsprechende Ver- 
10 ; knOpfuhg zwischen , den Dokumenten ereteilt. 

Unter "Dokumenten" werden hierbei Daten verstanden, die in elektronischer Fonn yor- 
Uegen. Es kann sich bspw. um Textdokumente handeln. Ebenso kann es sich um Kom- 

binationen aus Text- und Bildinfonnationen handehi. Es wird bevorzugt, dass die ver- 
15 arbeiteten Dokumente mindestens einen fext-Teil aufweisen. Auch bspw. Audio- oder 
Videodateien kSnnen verarbeitet werden, wobei der Text-Inhalt dann bevorzugt ent- 
weder in transkribierter Form vorliegt oder auch bei der Verarbeitung durch ein Sprach- 
-erkennungssystem generiert wild. Beispiele fur Datei-Foimate zu verarbeitender Doku- 
mente sind HTML- oder - allgemeiiier - XML-Doku?iente. Die Dokumente kOnnen 
20 verschiedenen inhaltlichen Typs sein. Es kann sich bspw. um einzehie Nachiichten- 

. Meldungen handehi. Ebenso kannen die Dokumente Werke der Literatur sein, Oder 
wissenschaflUche Aufeatze, hiterviews usw. Bevorzugt umfassen die Dokumente auch 
mindestens einen Daten-Teil mit zusatzlichen Infoimationen (Meta-Daten^ z. B. eine 
Angabe der Quelle, ein Erstellungsdatum etc.. 

25 

Im Rahmen der Erfindung sind eine Anzahl von Verknilpfungstypen vorgegeben. Diese 
Verknupflmgstypen entsprechen inhaltlichen Beziehungen zwischen zwei Dokumenten 
Oder zwischen einem Dokument und einer Gruppe (Cluster) von Dokumenten. Beispiele. 
fiir Verkniipfungstypen zwischen zwei Dokumenten A und B wSren bspw. "Dokument 



A ist ein Interview zu dem in Dokument B geschilderten Ereigtus" oder "Dokument A 
ist eine Rezension des Buches Dokument B". Entscheidend ist, dass ein inhaltlicher " 
Zusammenhang besteht, der durch den Verknupfungstyp festgelegt wird. Bevorzugt hat 
eine solche Verimupfung eine festgelegte Richtung. Ein Beispiel fiir einen Cluster C 
5 ware bspw. gegeben diu-ch eine Gmppe von Dokumenten, die sich alle mit einem 
bestimmten Ereignis beschaftigen. Ein mogUcher Verknttpfungstyp ^wischen einem 
Dokument A und dem Cluster C wMre dann bspw. "Dokument A ist eine Diskussion 
iiber das Ereignis, von dem Cluster C handelt"-. 

10 Die Erfindung geht somit fiber das JbloBe Feststellen von Ahplichkeitsbeziehungen 
zwischen zwei Dokumenten hinaus, Automatisch wird die Art dcr Beaehxmg zwischen 
zwei Dokumenten pder einem Dokumwit und einem Cluster erkanht. So lasst sich 
bspw. ein Strom von Dokumenten in geeigneter Weise segmentieren und klassifizieren 
• bzw. mit automatisch erzeugten Meta-Daten anreichem und sinnvoU vemetzt ablegen 

15 ■ ■ 

Das erflndungsgemaBe System verfiigt Ober Eingabemittel, Analysemittel, Auswahl- 
mittel und Ausgabemittel. Bevorzugt handelt es sich um eine Voirichtung mit.einem 
• Oder mehreren Computem, die Dokumente imd Referenzdaten bspw. aus einem 
Speicher pder fiber eine Netzwerkschnittstelle .einlesen kSnnen. Die Analyse des 
0 Zusammenhangs zwischen den Dokumenten und Referenzdaten sovwe die Auswahl 
eines Verknttpfungstyps kann durch ein geeignetes Pro^amm erfolgen. Die Ausgabe 
der erstellten Verkntipftmg erfolgt bspw. durch" Anzeigen auf einem Bildschirm, Aus- 
gabe iXher eine Netzwerk-Schnittstelle oder Speicherung in einem geeigneten perma- 
nenten Oder temporSren Speicher. 

GemSB einer Weiterbildung der Erfindung werden bei der Analyse der Dokumente 
Schltlsselworte aufgesucht, die die Art des Zusammenhangs zwischen den Inhfdten des 
• Eingabedokuments vmd der'Referenzdaten bezeichnen. Entsprechend der aufgejfundeneri 
Schiiisselworte wird die Verknfipfung erstellt, d.h. der Verknttpfungstyp ausgewShlt. 



Bei'spiele flir derartige Schlflsselworte kOnnen im Fall der Verarbfeitung von Nach- 
richten-Dokumenten hspvf. einleitende Wprte sein wie **niin ein Kommentar zu ...». 
Bevoizugt handelt es sich um Kombinationen aus mehreren zusammenhangenden 
Schlflsselworten, die hier'als Schlflsselphrasen bezeichnet werden. 

i . ■ ■ ' . 

. Bei der Verarbeitung eines Dokuments kann dieses klassifiziert, d.h. zu einem von einer 
. AnzaM vorgegebener Dokumenttypen zugeordnet werden. Die Bestimmung der Art des 
... - inhaltlichen Zusammenhangs kann dann auf den eimittelten Dokumeiittyp zurttck- 
greifen. 
10 • 

Eine Weiterbildung der Erfindung sieht vor, dass das Eingabedokument einen Text-Teil 
. und einen Daten-Teil umfesst. Der Text-Teil i^t der beyorzugt verarbeitete Inhalt des 
Dokuments. Im Daten-TeU sind weitere Iiifonnationen (Meta-Daten) fiber das Doku- 
ment enthalten, bspw. Informationen fiber Art, Herkunit und/oder Datum des Doku- 
1.5 ments. Selbstverstandlich kann das Dokument noch weitere Teile umfasseh, bspw. 
Grafiken, Video- oder Audioinhalte. Die im Daten-Teil enthaltenen Meta-Daten.fiber 
das Dokument kSnnen automatisch bei der Erfassung des Dokuments erstellt werden. 
Werden bspw. Nachrichtenbeitrage eines Femsehsenders als Doku^iente eifesst, so 
kSnnen die Quelle (Name des Nachrichtensenders) und die Sendezeit automatisch ver- 
20 zeichnet werden. Bei im Internet abgerufenen Dokumenten kann der Inhalte-Anbieter. 
verzeichnet werden und, soweit abrufbar, weitere Meta-Daten (bspw. ErsteUungsdatum, 
Name des Aiitors etc.). Weiter kdnnen Meta-Daten durch zusatzliche V erarbeitungs- 
schritte generiert werden! Werden bspw. Dokumente verarbeitet, die urspriinglich als . 
Audio- Oder Videodateien vorlagen, und deren Textinhalt bspw. durch eine Sprach- 
5 erkennung generiert wird, so konnen weitere Informationen aus der Spracherkennung 
als Meta-Daten verarbeitet werden. Hierffir kann bspw. eine Identifikation des jewei- 
ligen Sprechers vorgenommen werden. Derartige Techniken sind dem Fachmann aus 
dem Bereich der Spracherkennung bekannt. Die Ergebnisse der Sprecheridentifikation 
und bspw. auch ein regelmSBiger Sprecherwechsel <der auf den Dokumenttyp 
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"Interview" hindeuten wflrde) kann bspw. im Daten-Teil des Dokuments veizeichnet 
werden. Ebenso kaiin die Gerauschkulisse ausgewertet weiden, urn zwischen Studio- 
Beitragen und bspw. Live-Reportagen (mit Hintergnmdgerauschen) zu unterscheiden 
und dies im DatenrTeil vefz6ichnet werden, 

. GemaB einer anderen Weiterbildung der Erfindung wird bei der Analyse des inhalt- 
Uchen Zusammenhangs der Dokumente auf eine spezielle Datenbank zugegriffen. In 
dieser Datenbank sind Begriffe der jeweiligen Sprache zugehOrigen Oberbegriffen 
zugeordnet, Diese Informationen, angewendet auf Begriffe die in einem der beiden 
Dokumente vorkommen, konnen bei.der Analyse des inhaltlichen Zusammenhangs 
2wischen den Dokumenten eingesetzt werden. 



Eine Weiterbildung der Erfindung betriffl die vemetzte Ablage von Dokumenten in 
einem elektronischen Speichersystem, in dem Dokumente semantisch vemetzt abgelegt 
15 .sind. Zu abgespeicherten Dokumenten kann - wenn inhaltlich zugehCrige Dokumente 

ebenfallsgespeichert sind -eine auf diese Dokumente%eiichteteVerkntipfimg des . 
jeweiligen VerkriUpfungstyps abgespeichert seiii. Ein derartiges Speichersystem kann. 
durch aufeinanderfolgende Verarbeitung von Dokumenten aufgebaut und um neue ' 

- Dokumente erweitert werden. Beim-Zugriffaufdas Speichersystem kann zu einem " ' 
10 Dokument auf einfache Weise, ohne ziisStzIiche Analyse-Schritte, auf inhaltUch 
zugehSrige Dokumente zugegriffen werden. Ober den Verkntipfungstyp kann der 
Zugriff gezielt auf bestimmte Arten von inhaltlichem Zusammenhang gerichtet werden. 
Das Speichersystem kann Teil des erfindungsgemafien Computersystems sain und em 
Oder mehrere Speichemiedien, bspw. elektronischen Speicher (RAM) und/oder optische 
5 bzw. magnetisch6 DatentrSger umfassen. Mehrere Speichbrmedien k6nnen zusammen 
in einem GerSt oder verteilt in mehreren, bspw. ttber ein Netzwerk miteinander ver- 
bundenen Geraten angeordnet sein. 
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Nachfolgend werden Ausfuhrungsformen der Erflndung anhand.von Zeichnxmgen nSher 
beschrieben. In den Zeichnungen zeigen: 

Fig. 1 : In symbolischer Darstellimg Verkntipfungen zwischen drei Dokumenten; 
5 Fig. 2: in symbolischer Darstellimg Elemente eines Informationsverarbeitungssystems. • 

In Figxar 1 sind in symbolischer Darstellung die drei Dokumente Dl, D2 und D3 
dargestellt. 

10 Im vorliegenden Beispiel handelt es sich bei dem'Dokument D2 um eine Video-Datei, 
die ttber ein aktuelles Ereignis berichtet. Die Videodatei ist Teil einer Nachrichten- 
sendung und verftigt iiber einen Audio-Kommentar zum gezeigten Ereignis. Der Audio- 
Kommentar liegt in transkribierter Form zum Dokument D2.vor, bspw, erzeugt durch 
eine automatische Spracherkennung. Das Dokument .D2 verftigt somit iibef einen 

15 Video-Teil und einen Text-TeiL Zusatzlich verftigt das Dokument D2 uber einen Daten- 
Teil, in dein Informationen txber das Dokument gespeichert sind, darunter die ursprOng- 
liche Sende-Zeit des Beitrags sowie die Bezeichnung des Senders. 

Das Dokument Dl ist im vorliegenden Fall ein Zeitungs-Kommentar zu dem aktuellen 
20 . Ereignis, fiber das in D2 berichtet wird. Das Dokument Dl liegt in Form einer HTML- 
Seite mit dem entsprechenden Text vor. ZusStzlich zu dem Text-Teil verftigt auch Dl 
uber .einen Daten-Teil, in dem die Quelle (Name der Zeitung) sowie das Datum der 
Veroffentlichung verzeichnet sind. ' 

25 Bei dem Dokument D3 handelt es sich um ein Merview zu demselben aktuellen 

Ereignis, von dem auch D2 handelt. Das Interview liegt als Audio-Datei vor. Mit Hilfe 
einer automatischen Spracherkennung wurde zudem der Wortlaut des Interviews in 
Textform umgewandelt, der so zur Verarbeitung zur Verftigung steht. Auch hier ist ein 
Daten-Teil nndt Informationen iiber das Dokument vorhanden. Bei der Durchftlhrung der 
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automatischen Spracherkennung wurcle eine Sprecheridentifikation durchgefuhrt. Das 
erkannte Muster des regelmafiigen Wechsels zwischen zwei Sprechem (Interview) 
wurde erkannt und im Daten-Teil gespeichert. 

5 Bin System ziim Verarbeiten der Dokumente Dl, D2 und D3 und ziun Brzeugen von 
♦ Verkniipfimgen ist gegeben durch eine Datenquelle, die die Dokumente bereitstellt und 
durch einen Computer, der ein Progranmi verarbeitet, mit dem eine inhaitiiche 
Beziehung zwischen zwei Dokumenten erkannt und eine entsprecHende VerknUpfiing 
zwischen den Dokumenten erstellt werden kann. Das. Programm liest hierfur dieDoku- 

1 0 mente ein vmd verarbeitet den Text-Inhalt der Dokumente sowie ggfs. den Daten-Tjeil. 
Hierbei wird zunSchst festgestellt, ob inhaitiiche Beziehungen zwischen den Doku- 
menten bestehen imd welcher Art sie sind. Die Art der inhaltlicheri Beziehung wird 
einer von einer vorgegebenen Liste von Verknupfungsarten zugeordnet. Es wird eine 
Verkntipfung des ausgewahlten Verkntipfungstyps zwischen den Dokumenten erzeugt, 

15' ' . ■ . 

Figur 1 zeigt eine Verkntipfung Lnl z\yischen den Dokimienten Dl und D2. Die Ver- 
kntipfung Lnl ist vom Typ "Konmientar-zu". Die Verknupfung ist gerichtet imd zeigt 
von Dokument Dl auf Dokument D2. Sie gibt somit als inhaltlichen.Zusammenhang 
zwischen Dl und D2 an, dass der Inhalt von Dl ein Kommentar ist zu dem in D2 ge- 

20 schilderten Ereignis^ 

* Ein anderes Beispiel ist eine Verknupfung Ln2 zwischen den Dokumenten D3 und D2. 
Die Verkntipfung ist vom Typ "Interview-zu-Ereignis" und zeigt von Dokument D3 auf 
Dokument D2. Die Verkntipfung Ln2 ynrd von dem oben genaimten Programm erzeugt 
25 nachdem erkannt wurde, dass der Inhalt von D3 ein Interview zu dem im Dokument D2 
geschilderten Ereignis ist. 
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Die in Fig. 1 dargestellten Dokumente Dl, D2 und D3 mit den Verknttpfimgen Lnl, 
Ln2 biiden eine Gruppe von Dokumenten, dip hier als Cluster C bezeichnet wird. Ein 
soicher Cluster kann eine groBe Anzahl an Dokumenten umfassen. Die Dokximente 
eines Clusters hangen inhaltlich in der Weise zusammen, dass sie sich mit demselben 
Thema befassen. 

Die in Fig. 1. dargestellten VerknupfungenLnl und Ln2 zwischen den Dokumenten Dl, 
D2 und D3 sind jeweils Verkntipfungen zwischen einzelnen Dokumenten. JEbenso ist es 
auch moglich, Verkntipfungen zwischen einem neuen, zu analysierenden Dokument und 
einem bestehenden Cluster C axis mehreren Dokumenten zu definieren. 

Die Verarbeitung von Dokumenten durch das Programm iauft wie folgt ab: 

• Zunachst wird ein Eingabedokument eingelesen. Bei der Bearbeitung \Vird 
. einerseits der Text-Inhalt und ahdererseits ein Daten-Teil mit zusatzlichen 
hiformationen tiber das Dokument betrachtet 

- Das Eingabedokument wird mit Referenzdaten verglicheri um festzustellen, ob ein 
iiihaltlicher Zusammenhang besteht. Wie ohen erlSutert kann es sich bei den 
Referenzdaten irai ein 2weites. Dokument handeln. Ebenso kann es sich bei den 
Referenzdaten auch um einen Cluster von Dokumenten, bzw. um einen 
Reprasentanten hiervon handeln. 

Wird keine inhaltliche Obereinstimmung zwischen dem Eingabedokument und 
den Referenzdaten festgestellt, so ist die Verarbeitung hinsichtlich dieses 
Vergleichspaares beendet. Das Eingabedokument kann dann bspw. mit weiteren 
Referenzdaten verglichen werden. 
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Wird hingegen ein inhaltliGher Zusaminenhang festgestellti erfolgt eine weitere 
Verarbeitung mit dem Ziel, die Art des Zusaminenhangs zu ermitteln und eine 
entsprechende Verknupfiing zu generieren. Hierftir werden vordefinierte 
Schlusselphfasen im Eingabedokuinent identifiziert, die einen Verweis 
5 aufeinander anzeigen. Den jeweiligen Schlxisselphrasen sind in einer Tabelle 

Verkriiipfungstypen zugeordnet 

Zusatzlich werden die im Daten-Teil des Eingabedokuments enthd^^ : 
Infonnationen ansgewertet Die Ergebnisse der Schltisselphrasen-Suche und die 
1 0 zusatzlichen Informationen aiis dem Daten-Teil des Eingabedokuments werden 

bewertet, um einen Verknapfungslyp auszaiwahlen. 

• '. . 

- ' . Eine Verkntipfung des ausgewahiten Verknupfungstyps wLrd zWischen dem • 
. Eingabedokument und den Referenzdaten erzeugt und in einer Datenbank 
15 abgespeichert 

• Fiir die Feststellung, ob zwischen deni Eingabedokument und den Referenzdaten ein 
inhaltlicher Zusammenhang besteht, konnen dein Fachmann bekannteTechniken ein- 
gesetzt werden. Eine bekannte Technik umfasst eine Analyse des Text-Inhalts durch 

20 Betrachtung haufig vorkommender Worte innerhalb des Textes, Werden zwei Doku- 
mente verglichen, wird fur beide Dokumente bspw. ein Vektor der Worthaufigkeiten ' 
der h haufigsten Worte erstellt, wobei n geeignet gewahlt wird. Es kaim dann ein 
" Vektor-Abstand ermittelt werden, der als MaB fiir inhaltliche Ubereinstimmungen 
zwischen den Dokumenten angesehen werden kann. Derartige Techniken sind bspw. in 

25 der US-A-5 983 246 beschrieben. In den Artikeln "Text Categorization With Support 
Vector Machines: Learning with Many Relevant Features" 1998 by Thorsten Joachims, 
Proceedings of the ECML '98 (European Converence on Machine Learning) und 
"Improving textretrieval for the routing problem using latent semantic indexing" (1994) 
by David Hull, Proceedings of the SIGIR '94 (Special Interest Group on Infomiation 
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Retrieval) werden ebenfalls derartige Techniken diskutiert. Der Inhalt der zitierten 
Dokmjiente wird hier einbezogen. 

j 

Erfolgt eine Betrachtung des Zusammenhangs zwischen einem Dokument und einem 
Cluster von Dokumenten, so kann dies als Siunme von Einzelvergleichen durchgeftihrt 
werden. Aus Performance-Grunden kann aber auch ein Vergleich des Dokuments mit 
einer oder mehreren ReprSsentationen des Clusters erfolgen. Derartige Reprapentationen 
fassen Gemeinsamkeiten der Dokumente des Clxxsters zusammen. Wird bspw, mit der 
oben angegebenen Worthaiufigkeit-Methode gearbeitet^ so umfasst eine Repr^entation 
eines Clusters eine Liste von Begriffen, die in den Dokumenten des Clusters hSufig , 
vorkommen. . • 

. ■ I ' 

Der oben genatinte Schritt der Auswahl eines geeigneten Verkniipfungstyps macht unter 
anderem Gebrauch von einer Tabelle mit Zuordnung von Schltisselphrasen zu Ver- 
knupfungstypen. Bei den Schlxisselphrasen kann es sich um einzebae W6rter hahdeln. In 
der Regel wird es sich jedoch um Kombinationfen von Schlusselworten und weiteren 
Elementen, wie Orts- oder Personennamen handeln, Nachfolgend ist beispielhpft eine 
Tabelle mit einer entsprechenden Zuordnung angegeben: 

Schliisselphrase zugehSriger Verkniipfungstyp 

Live vor Ort in <Ortsname> ist flir uns 

Live-Reportage 

, <Personenname> ' ' • 

Dazu ein Kommentar von ' 

Kommentar 

<Personenname> 

Zusatzlich zu den oben angegebenen Schltisselphrasen kSnnen Informationen mit Meta- 
Dateri zum Eingabedokument verarbeitet werden. Derartige Meta-Daten konnen im 
Datenteil des Dokuments bereits enthalten sein, oder durch separater Verarbeitungs- 
schritte generiert werden. So kann bspw. bei Erstellung des Text-Teils aus einer Audio- 
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Datei zusatdich zu bekannten Techniken der Spracherkennung auch die ebenfalls 
bekannten Techniken zur Sprecheridentifikation eingesetzt warden, um bspw. Regel- 
mafiige Sprecherwechsei zu erkennen, die auf ein Interview hindeuten. 

5 Die Gesamtheit der aus der Analyse der Schlusselphrasen iind der zusatzlichen Meta- 
Daten gewonnenen Informationen wird hinsichtlich der tJbereinstimmung mit einem 
passenden Verkntxpfungstyp bewertet. Der Verkniipfungstyp mit der hOchsten 
Bewertung wird ausgewahlt. 

1 0 Zusatzlich kann bei der Analyse der Art der inhaltlichen Beziehung zwischen den 
Dokumenten auf eine spezielle Begriffs-Datenbank zugegjiffen werden. Diese Daten- 
bank enthalt Begriffe der jeweils verwendeten Sprache und ordnet hierbei Begriffe 
einerseits ihren tjbergeordneten Oberbegriffen iind anderersdits von ihnen umfassten 
Spezialbegriffen zu. Das Wort "Werkzeug" wird so bspw. einerseits einem Oberbegriff 
1 5 "Gegenstand" zugeordnet urid andererseits einem Spezialbegriff wie "Hammer". Der- 
artige Datenbanken sind bekannt. Weiter verzeichnen bekannte Datenbanken dieser Art, 
die auch als "Thesaurus" bezeichnet werden, Synonyme und Antonyme von Begriffen 
ebenso wie Meronyme, Holonyme, Hyperonyme und Hyponyme von Begriffen. 

Eine derartige Datenbank kann einerseits eingesetzt werden bei dem Schritt der 
Analyse, ob eiri inhaltlicher Zusammenhang zwischen Eingabedokument und Referenz- 
daten besteht. Basiert diese Untersuchung auf einem Vergleich haufig auftretender 
Worter, so konnen bspw, anstatt der Betrachtung von Einzelbegriffen Gruppen gleich- 
bedeutender Begriffe (Synonyme) betracihtet werden, so dass imterschiedliche Formu- ' 
lierungen desselben Sachverhaltsi als inhaltlich zusammenhangend erkannt werden. 

Andererseits kOnnen derartige Datenbanken auch bei der Feststellung der Art des inhalt- 
lichen Zusammenhangs zwischen zwei Dokumenten bzw. zwischen einem Dokument- 
und einem Dokmnenten-Clxister eingesetzt werden. Bspw. konnen in einer Datenbank 
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mit Zuordnung von Spezial- land Oberbegriffen die in einem ersten Dokument aiif- 
tretenden Begriffe hinsichtlich ihrer Stellung in der Datenbank (Oberbegriffe: allge- 
meiner; Spezialbegriffe: spezieller) betrachtet werden und so ein geeignetes^ bspw. 
numerisches MaB fur den Grad der Spezialisierung der verwendeten Begriffe gebildet 
werden. Wird bspw. bei zwei inhaltlich ^s zusanmienhangend erkannten Dokumeriten 
festgestellt, dass ein Dokument iiberwiegend allgemeine Oberbegriffe nennt, wahrend 
das andere Dokument Spezialvokabular verwenciet, so kSnnen hieraus Ruckschlusse auf 
die vinterschiedlict stark detaillierte Behandlung desselben Themas gezogen werden. 

.Diese Erkenntnisse konnen zusainmen mit den Meta-Daten tiber das Dokument und 
Erkenntnissen tiber aufgefundene Schltisselphrasen verwendet werden, um einen 
geeigneten Verkntipfungstyp auszuwahlen. 

In Figur 2 ist in symbolischer Form ein System 10 zur Verarbeitung von Dokumenten 
dargestellt. Das System^ 10 verfiigt uber einen Datenspeicher 12, in dem einerseits 
Dokunotfente D und andererseits Verkntipfungen L zwischen Dokumenten D abgelegt 
sind. Abgespeicherte, mit Verkntipfimgen zusammenhSngende Dokumente bildeh 

Cluster C. , 

Das System 10 verfugt femer fiber eine Analyse^ und Entscheidungseinheit 14 und eine 
Auswahleinheit 16. Gas System 10 verarbeitet ein Strom von Dokumenten Dl ... Dn, 
die in standiger Fplge angeliefert werden. Di6ser Strom von Dokumenten kann bspw. 
aus einer Dokumenten-Datenbank ausgelesen werden. Ebenso kann der Dokumenten- 
Strom Dl ... Dn das Ergebnis eines als 'Web-Spider" arbeitenden Programms sein, das 
in- standiger Folge Dokumente aus dem Intemet abrufl. Der Datenstrom Dl ... Dn kaim 
schlieBlich auch das Ergebnis einer stfindigen Auswertung bspw, der Sendungen ver- 
schiedener Nachrichtensender sein, ^ 
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Die Dokumente Dl ... Dn werden zunSchst Von der Analyse- iind Entscheidungseinheit 
14 auf einen inhaltlichen Zxisammenhang zu jedem.der bereits im Datenspeicher 12 ' 
abgespeicherten Einzeldokumente D imd Dokument-Clustem C tiberprOft. Bei Vor- 
liegen einer inhaltlichen Beziehung wird wie oben angegeben deren Art eimittelt und 
5 eine entsprechende Verkniipfung L erstellt. Das aktuell vefarbeitete Dokument und 
sSmtliche erzeugten Verknupfimgen L werden im Datenspeicher 12 abgelegt. So ent- 
steht im Datenspeicher 12 ein semantisehes Netzwerk, das Dokumente und gerichtete 
. Relationen verschiedenen Typs zwischen diesen Dokumenten verzeichnet. Wird fur ein 
Eingabe-Dokument kein Dokument D oder Cluster C init inhaltlichem Zusammenhang 
10 . aufgefimden, so wird das Eingabedokument separat abgespeichert und kann den Kem 
eines neuen Referenz-Clusters bilden. 

In einer konkreten Realisierung kann der Datenspeichet 12 bspw. als XML-Datenbank 
• realisiert werden. Sind die Dokumente D bspw. in einem Computer-Netzwerk wie dem 
15 Internet vinter einer bekannten Adresse (URL) abrufbar, kann anstatt der Speicherung 
der Dokvimente I) im Datenspeicher 12 auch jeweils die entsprechende URL 
abgespeichert werden. ^ . , 
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PATBNTANSPROCHE 



' L ; System zur Verarbeitung von elektronischen Dokmnenteri, mit • , * 

- Eingabemitteln zur Eingabe mindestens eines Eingabedokuments (D 1) und 
von Referenzdaten (D2) 

5 - Analysemitteln (16) zur Analyse desInhaltedesEingabedokim 

hinsichtlich eines inhaltlichen Zusamnienhangs zwischen dem 
Eingabedokument (D 1 ) und den Referenzdaten .(D2), 

- Auswahlmitteln zur Auswahl eines Verknupfungstyps aus einer Anzahl 

10 ; . vofgegebemer Verknupfungstypen, wobei ein Verknupftmgstyp ausgewahlt * 

;wird, entsprechend der Art des inhaltlichen Zusammenhangs zwischen dem 
Eingabedokument (D 1 ) und den Referenzdaten (D2), 



- und Ausgabemitteln zur Ausgabe einer Verknupfimg(L) des ai^^ 
15 Typs. 

2. System nach .Ahspruch 1 , bei dem 

- die Verkniipfung (L) eine Verkntipfungsrichtung umfasst. . 

20 3. System nach einem der vorangehenden Anspruche, bei dem 

- die Referenzdaten ein zweites Dokument (D2) sind. 
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4. System nach einem der Anspriiche 1 oder 2, bei dem 

- die Referenzdaten eine ReprSsentation fUr eine Gruppe von inhaltlich 
zusammenhangenden Dokumenten sind. 

5. System nach einem der vorangehenden Anspniche, bei dem 

- bei der Auswahl des Verknupfungstyps Schlusselworte aufgesucht werden, 
die die Art des Zusammenhangs zwischen den Inhalten des 

. Eingabedolcuments(Dl)und der Referenzdaten (D2)bezeichnen, 

- und ein Verkntipfiingstyp entsprechend der aufgefundenen SchltlsselWorte 
ausgewShlt wird. 

6. System nach einem der vorangehenden Anspriiche, bei dem 

. . - bei der Auswahl des Verknupfungstyps die Zuordnxmg des Dokuments (D) zu 
einem von einer Anzahl vorgegebener Dokumenttypen vorgenommen wird, 

- vmd ein Verknupfungstyp entsprechend des Dokumenttyps ausgewahlt wird. 

7. System nach einem* der vorangehenden Anspriiche, bei dem 

das Eingabedokument (D 1) mindestens einen Text-Teil und einen Daten-Tei l 
xmifasst, 

- wobei der Daten-Teil Infonnationen enthSlt tlber die Art und/oder Herkunft 
des Dokuments, 

8 . System nach Anspmch 6 und 7, bei dem 

- der Daten-Teil des Eingabedofcuments (Dl) zur Auswahl des Dokumenttyps 
verwendet wird. 
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9. System nach* einem der vorangehenden Ansprliche, bei .dem 

- die Analysemittel auf eine Datenbank zugreifen, in der Begriffe zu 
Oberbegrifien zugeordnet sind. ' 

5 10. System nach einem der vorangehenden Anspriiche, bei dem • 
- - das Eingabedolounent (Dl)imddieerstellte Verknttpfm 
Speicliersystem (12) abgelegt wird; 

- wobei das Speichersystem (12) so organisiert ist, dass zu darin gespeicherten 
Dokumenten jeweils VerkiiUpflmgen zu anderen Dokumenten gespeichert 

10 sirid. 

. 1 1 . Verfahren zur Verarbeitiihg von Dokumenten, bei dem 

• - mindestens ein Eingabedokuments (Dl) und Referenzdaten (D2) verarbeitet 
werden, 

15 - wobei das Eingabedokuments (D 1 ) hinsichtlich seines Inhalts analysiert imd 

entschieden wird, ob ein inhaltlicher Zusammenhang zwischen dem 
. Eingabedokument OD 1) und den Referenzdaten (D2) besteht, 

- wobei fiir den Fall eines inhaltlichen Zusammenhangs ein Vef kntlpfungstyp 



aus einer Anzahl vbrgegebener Verkntipfungstypen, entsprechend der Art des 
20 inhaltlichen Zusammenhangs zwischen dem Eingabedokument (Dl) imd den 

Referenzdaten (D2) ausgewaHlt wiird, 
- ' und eine Verkntipfung des ausgewahlten Typs erstellt wird. 



12, Programm zur Durchfuhrung eines Verfahrens nach Anspruch 1 1 . 
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